0. Библиотеки и предварительная подготовка

library(readxl)
library(dplyr)
library(scatterPlotMatrix)
library(kableExtra)
library(psych)
library(summarytools)
library(ggplot2)
library(GGally)
library(nortest)
library(moments)
library(ppcor)
library(corrplot)
library(lm.beta)
library(ellipse)
library(car)
library(olsrr)
print_df <- function(df)
{
  df |>
    kable(format = "html") |>
    kable_styling() |>
    kableExtra::scroll_box(width = "100%", height = "100%")
}

plot_qq_graph <- function(data, column_name) {
  data<-data
  expected_quantiles <- qnorm(ppoints(length(data)))
  qqnorm(data,  pch = 19, col = "deeppink")
  qqline(data, distribution = qnorm, lwd = 2, col = "limegreen")
  legend("topleft", legend = column_name, col = "deeppink", pch = 19)
}

plot_pp_plot <- function(data, column_name) {
  n <- length(data)
  expect_prob <- pnorm(data, mean(data), sqrt(var(data) * (n - 1) / n))
  expect_prob <- sort(expect_prob)
  plot(x = expect_prob, y = ppoints(n), col = "red")
  lines(x = c(0, 1), y = c(0, 1), col = "blue")
  legend("topleft", legend = column_name, col = "deeppink", pch = 19)
}

1. Загрузка и предобработка данных

df <- read_excel("stat2021_sm/Sleep/SLEEP_shortname.xls", )
df <- df |> mutate(SLEEP = ifelse(SLEEP < 0, NA, SLEEP), PARADOX = ifelse(is.infinite(PARADOX), NA, PARADOX), PRED_IND = as.factor(PRED_IND), EXP_IND = as.factor(EXP_IND), DANG_IND = as.factor(DANG_IND)) 
df |> slice(1:10) |> print_df()
NAME BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME PRED_IND EXP_IND DANG_IND
African elephant 6654.000 5712.0 NA NA 3.3 38.6 645 3 5 3
African giant rat 1.000 6.6 6.3 2.0 8.3 4.5 42 3 1 3
Arctic Fox 3.385 44.5 NA NA 12.5 14.0 60 1 1 1
Arc. ground squirrel 0.920 5.7 NA NA 16.5 NA 25 5 2 3
Asian elephant 2547.000 4603.0 2.1 1.8 3.9 69.0 624 3 5 4
Baboon 10.550 179.5 9.1 0.7 9.8 27.0 180 4 4 4
Big brown bat 0.023 0.3 15.8 3.9 19.7 19.0 35 1 1 1
Brazilian tapir 160.000 169.0 5.2 1.0 6.2 30.4 392 4 5 4
Cat 3.300 25.6 10.9 3.6 14.5 28.0 63 1 2 1
Chimpanzee 52.160 440.0 8.3 1.4 9.7 50.0 230 1 1 1

2. Описание признаков

  1. NAME — название животного — качественный признак
  2. BODY_WEI — вес тела в килограммах — количественны непрерывный признак
  3. BRAIN_WE — вес мозга в граммах — количественный непрерывный признак
  4. SLOWWAVE — время медленного сна, часов в день — количественный непрерывный признак
  5. PARADOX —время быстрого сна, часов в день — количественный непрерывный признак
  6. SLEEP — общее время сна, часов в день — количественный непрерывный признак
  7. LIFESPAN — продолжительность жизни в годах — количественный непрерывный признак
  8. GESTTIME — время беременности в днях — количественный непрерывный признак
  9. PRED_IND — индекс хищничества (1 — наименее вероятный объект для охоты, 5 — наиболее вероятный объект для охоты) — порядковый признак
  10. EXP_IND — индекс воздействия во время сна (1 — наименее подверженный воздействию (например, животное спит в хорошо защищенном логове), 5 — наиболее подверженный воздействию) — порядковый признак
  11. DANG_IND — общий индекс опасности (на основе двух вышеуказанных индексов и другой информации) (1 — наименьшая опасность (от других животных), 5 — наибольшая опасность (со стороны других животных)) — порядковый признак

3. Матричный график разброса

categories <-list(NULL, NULL, NULL, NULL, NULL, NULL, NULL, 1:5, 1:5, 1:5)
df |> dplyr::select(-NAME) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)

Видим достаточно логичные кандидаты на логарифмирование: вес тела, вес мозга, продолжительность жизни и время беременности — это мультиплекативные признаки. Также время быстрого сна имеет перекос влево, так что лучше его тоже отлогарифмировать, хотя логически, так как время сна содержит в себе время быстрого сна, этот признак не является мультиплекативным, а также не имеет нелинейную зависимость. Однако, ассиметрия времи быстрого сна имеет достаточно большое значение:

desc0 <- df |>dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> describe() |>dplyr::select(-trimmed, -mad, -se)
print_df(desc0)
vars n mean sd median min max range skew kurtosis
BODY_WEI 1 62 198.789984 899.158011 3.3425 0.005 6654.0 6653.995 6.2494291 40.5981819
BRAIN_WE 2 62 283.134193 930.278942 17.2500 0.140 5712.0 5711.860 4.8288287 23.2367752
SLOWWAVE 3 48 8.672917 3.666452 8.3500 2.100 17.9 15.800 0.2798669 -0.4442636
PARADOX 4 50 1.972000 1.442651 1.8000 0.000 6.6 6.600 1.3667228 1.7793264
SLEEP 5 58 10.532759 4.606760 10.4500 2.600 19.9 17.300 0.1909556 -0.6497094
LIFESPAN 6 58 19.877586 18.206255 15.1000 2.000 100.0 98.000 1.9107968 5.0043782
GESTTIME 7 58 142.353448 146.805039 79.0000 12.000 645.0 633.000 1.5974241 2.3223297

4. Логарифмирование хвостатых

df.log <- df
df.log <- df.log |> mutate(BODY_WEI = log(BODY_WEI), BRAIN_WE = log(BRAIN_WE), PARADOX = log(PARADOX), LIFESPAN = log(LIFESPAN), GESTTIME = log(GESTTIME))
df.log <- df.log |> mutate(PARADOX = ifelse(is.infinite(PARADOX), NA, PARADOX))
df.log |> dplyr::select(-NAME) |> filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME)) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)

Выведем также немного другой матричный график, в котором удаление NA будет попарным.

df.log |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)

Видим, что распределения стали более симметричными, причём почти все признаки имеют отрицательный эксцесс, то есть они более “плоские”, чем нормальное:

desc1 <- df.log |>dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> describe() |>dplyr::select(-trimmed, -mad, -se)
print_df(desc1)
vars n mean sd median min max range skew kurtosis
BODY_WEI 1 62 1.3375390 3.1231277 1.2066382 -5.2983174 8.802974 14.101291 0.1453599 -0.5232692
BRAIN_WE 2 62 3.1401979 2.4465120 2.8477071 -1.9661129 8.650324 10.616437 0.0434421 -0.6184785
SLOWWAVE 3 48 8.6729167 3.6664517 8.3500000 2.1000000 17.900000 15.800000 0.2798669 -0.4442636
PARADOX 4 49 0.4656547 0.7080779 0.5877867 -1.2039728 1.887070 3.091042 -0.1364307 -0.5840339
SLEEP 5 58 10.5327586 4.6067604 10.4500000 2.6000000 19.900000 17.300000 0.1909556 -0.6497094
LIFESPAN 6 58 2.5930586 0.9435145 2.7120343 0.6931472 4.605170 3.912023 -0.1629152 -0.9151912
GESTTIME 7 58 4.4441910 1.0602517 4.3596587 2.4849066 6.469250 3.984344 0.0473325 -1.1407247

По графику неравномерностей не видно. Если раскрасить по категориальным признакам, то тоже не получается выделить раздельные облака.

5. Выбросы

Видим пару выбросов, для которых вес мозга мал, но продолжительность жизни достаточно велика:

df.log |> filter(LIFESPAN > 2 & BRAIN_WE < 0) |> print_df()
NAME BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME PRED_IND EXP_IND DANG_IND
Big brown bat -3.772261 -1.203973 15.8 1.3609766 19.7 2.944439 3.555348 1 1 1
Little brown bat -4.605170 -1.386294 17.9 0.6931472 19.9 3.178054 3.912023 1 1 1

Это две летучие мыши.

Построим теперь графики разброса без выбросов.

df.log.out <- df.log |>  filter(!(LIFESPAN > 2 & BRAIN_WE < 0))
df.log.out |> dplyr::select(-NAME) |> filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME)) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)

И сравним корреляции.

df.log |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)

df.log.out |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)

В основном они выросли, по крайней мере, там, где мы исключали выбросы.

6. Зависимости от индексов опасности

Необходимо описать разницу между животными по индексу опасности места, где они спят. Посмотрим на количество животных в каждой группе:

df.log.out |>dplyr::select(EXP_IND) |> summary()
 EXP_IND
 1:25   
 2:13   
 3: 4   
 4: 5   
 5:13   

Выборки для индексов \(2\) и \(5\) можем считать сбалансированными.

Визуально оценим распределения с помощью ящиков с усами:

df.log.out |> ggplot(aes(x = EXP_IND, y = BODY_WEI)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = BRAIN_WE)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = PARADOX)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = SLOWWAVE)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = SLEEP)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = LIFESPAN)) +
  geom_boxplot()

df.log.out |> ggplot(aes(x = EXP_IND, y = GESTTIME)) +
  geom_boxplot()

В основном видна монотонная зависимость, однако, предстоит проверить это с помощью критериев.

7. Нормальность, вид распределения

Из-за малости выборок в третьей и четвёртой группах исключим их из исследования.

get_df_on_ind <- function(i) {
  return(df.log.out |> filter(EXP_IND == i))
}

Посмотрим сначала на гистограммы распределений по группам для каждого признака.

for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  hist(get_df_on_ind(i)$BODY_WEI, main = "")
  hist(get_df_on_ind(i)$BRAIN_WE, main = "")
  hist(get_df_on_ind(i)$SLOWWAVE, main = "")
  hist(get_df_on_ind(i)$PARADOX, main = "")
  hist(get_df_on_ind(i)$SLEEP, main = "")
  hist(get_df_on_ind(i)$LIFESPAN, main = "")
  hist(get_df_on_ind(i)$GESTTIME, main = "")
}
[1] "Группа  1"
[1] "Группа  2"

[1] "Группа  5"

Посмотрим на нормальность с помощью Normal Probability Plot:

for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  plot_qq_graph(get_df_on_ind(i)$BODY_WEI, "BODY_WEI")
  plot_qq_graph(get_df_on_ind(i)$BRAIN_WE, "BRAIN_WE")
  plot_qq_graph(get_df_on_ind(i)$SLOWWAVE, "SLOWWAVE")
  plot_qq_graph(get_df_on_ind(i)$PARADOX, "PARADOX")
  plot_qq_graph(get_df_on_ind(i)$SLEEP, "SLEEP")
  plot_qq_graph(get_df_on_ind(i)$LIFESPAN, "LIFESPAN")
  plot_qq_graph(get_df_on_ind(i)$GESTTIME, "GESTTIME")
}
[1] "Группа  1"
[1] "Группа  2"

[1] "Группа  5"

И с помощью PP-plot:

for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(BODY_WEI)))$BODY_WEI, "BODY_WEI")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(BRAIN_WE)))$BRAIN_WE, "BRAIN_WE")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(SLOWWAVE)))$SLOWWAVE, "SLOWWAVE")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(PARADOX)))$PARADOX, "PARADOX")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(SLEEP)))$SLEEP, "SLEEP")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(LIFESPAN)))$LIFESPAN, "LIFESPAN")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(GESTTIME)))$GESTTIME, "GESTTIME")
}
[1] "Группа  1"
[1] "Группа  2"

[1] "Группа  5"

А теперь оценим по тесту Шапиро-Уилка:

df.shapiro.test.p.value <- data.frame(ind = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)) {
  df.shapiro.test.p.value[df.shapiro.test.p.value$ind == i, ] <- c(i, shapiro.test(get_df_on_ind(i)$BODY_WEI)$p.value, 
  shapiro.test(get_df_on_ind(i)$BRAIN_WE)$p.value,
  shapiro.test(get_df_on_ind(i)$SLOWWAVE)$p.value,
  shapiro.test(get_df_on_ind(i)$PARADOX)$p.value,
  shapiro.test(get_df_on_ind(i)$SLEEP)$p.value,
  shapiro.test(get_df_on_ind(i)$LIFESPAN)$p.value,
  shapiro.test(get_df_on_ind(i)$GESTTIME)$p.value)
}

df.shapiro.test.p.value |> print_df()
ind BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 0.1924485 0.4855703 0.4685556 0.0946346 0.3176217 0.0733372 0.2755650
2 0.0204661 0.0126712 0.4403360 0.8802017 0.4562102 0.8049845 0.5314537
5 0.9922347 0.7461442 0.0844404 0.9214902 0.0052604 0.4522227 0.0232529

И наконец по Лиллиефорсу:

df.lillie.test.p.value <- data.frame(ind = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)) {
  df.lillie.test.p.value[df.lillie.test.p.value$ind == i, ] <- c(i, lillie.test(get_df_on_ind(i)$BODY_WEI)$p.value, 
  lillie.test(get_df_on_ind(i)$BRAIN_WE)$p.value,
  lillie.test(get_df_on_ind(i)$SLOWWAVE)$p.value,
  lillie.test(get_df_on_ind(i)$PARADOX)$p.value,
  lillie.test(get_df_on_ind(i)$SLEEP)$p.value,
  lillie.test(get_df_on_ind(i)$LIFESPAN)$p.value,
  lillie.test(get_df_on_ind(i)$GESTTIME)$p.value)
}

df.lillie.test.p.value |> print_df()
ind BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 0.3977150 0.3724944 0.2399545 0.2094751 0.2837660 0.3215462 0.4647484
2 0.1209793 0.0760938 0.8789409 0.9154588 0.8195576 0.7890638 0.9238088
5 0.7872499 0.4314403 0.0328885 0.5556462 0.0004679 0.4954892 0.1272532

Этот критерий является менее мощным, однако даёт схожие результаты.

По итогу можно считать, что распределения всех признаков во всех группах похожи на нормальные, кроме веса тела и веса мозга во второй группе и времени медленного сна, времени сна и времени беременности в пятой группе.

8. t-тесты

Сначала посмотрим на дисперсию, чтобы применить t-test для распределений с равными дисперсиями. Тест Фишера проверяет равенство дисперсий для нормально распределённых данных, которые мы определелили в прошлом пункте:

df.fisher.var <- data.frame(IND1 = rep(0, 3), IND2 = rep(0, 3), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

k <- 1

for (i in c(1, 2, 5)){
  for (j in c(1, 2, 5)){
    if (i < j){
      df.fisher.var[k, ] <- c(i, j,
                                  var.test(get_df_on_ind(i)$BODY_WEI, get_df_on_ind(j)$BODY_WEI)$p.value,
                                  var.test(get_df_on_ind(i)$BRAIN_WE, get_df_on_ind(j)$BRAIN_WE)$p.value,
                                  var.test(get_df_on_ind(i)$SLOWWAVE, get_df_on_ind(j)$SLOWWAVE)$p.value,
                                  var.test(get_df_on_ind(i)$PARADOX, get_df_on_ind(j)$PARADOX)$p.value,
                                  var.test(get_df_on_ind(i)$SLEEP, get_df_on_ind(j)$SLEEP)$p.value,
                                  var.test(get_df_on_ind(i)$LIFESPAN, get_df_on_ind(j)$LIFESPAN)$p.value,
                                  var.test(get_df_on_ind(i)$GESTTIME, get_df_on_ind(j)$GESTTIME)$p.value)
      k <- k + 1
    }
  }
}

df.fisher.var |> print_df()
IND1 IND2 BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 2 0.3119679 0.1905823 0.3041400 0.4869923 0.6645465 0.9543801 0.7543563
1 5 0.6380604 0.3940484 0.4168502 0.7837348 0.0334406 0.0080450 0.6722005
2 5 0.6237712 0.6698967 0.1563733 0.4297079 0.0221523 0.0125095 0.5226789

Гипотеза о равенстве не отвергается для веса тела и веса мозга между первой и пятой группы, для времени медленного сна, времени сна и времени беременности между первой и второй группы, времени быстрого сна между всеми группами и продолжительности жизни между первой и второй группой.

Проведём t-тесты для первой, второй и пятой группы по всем признакам:

df.t.test.p.value <- data.frame(IND1 = rep(0, 3), IND2 = rep(0, 3), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

k <- 1
flag <- FALSE
flagBB <- FALSE
flagSSG <-FALSE
flagL <- FALSE

for (i in c(1, 2, 5)){
  for (j in c(1, 2, 5)){
    if (i < j){
        flag <- i == 2 & j == 5
        flagBB <- i == 1 & j == 5
        flagSSG <- i == 1 & j == 2
        flagL <- i == 1 & j == 2
      
      df.t.test.p.value[k, ] <- c(i, j,
                                  t.test(get_df_on_ind(i)$BODY_WEI, get_df_on_ind(j)$BODY_WEI, var.equal = flag | flagBB)$p.value,
                                  t.test(get_df_on_ind(i)$BRAIN_WE, get_df_on_ind(j)$BRAIN_WE, var.equal = flag | flagBB)$p.value,
                                  t.test(get_df_on_ind(i)$SLOWWAVE, get_df_on_ind(j)$SLOWWAVE, var.equal = flag | flagSSG)$p.value,
                                  t.test(get_df_on_ind(i)$PARADOX, get_df_on_ind(j)$PARADOX, var.equal = TRUE)$p.value,
                                  t.test(get_df_on_ind(i)$SLEEP, get_df_on_ind(j)$SLEEP, var.equal = flag | flagSSG)$p.value,
                                  t.test(get_df_on_ind(i)$LIFESPAN, get_df_on_ind(j)$LIFESPAN, var.equal = flag | flagL)$p.value,
                                  t.test(get_df_on_ind(i)$GESTTIME, get_df_on_ind(j)$GESTTIME, var.equal = flag | flagSSG)$p.value)
      k <- k + 1
    }
  }
}

df.t.test.p.value |> print_df()
IND1 IND2 BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 2 0.3331031 0.8379613 0.4313905 0.0894578 0.3325090 0.4306579 0.2064574
1 5 0.0000011 0.0000094 0.0000195 0.0000105 0.0000000 0.0000080 0.0000807
2 5 0.0000004 0.0000050 0.0045885 0.0168625 0.0000441 0.0026227 0.0033338

Гипотеза о равенстве распределений по всем признакам между первой и второй не отвергается, а между первой и пятой и второй и пятой отвергается. Однако для признаков, которые мы посчитали ненормальными (вес тела и вес мозга во второй группе и время медленного сна, время сна и время беременности в пятой группе) p-value нельзя считать верным, так как размеры выборок малы и эти признаки не имеют нормального распределения.

9. Тест Манна-Уитни

Для проверки равенства распределений для ненормально распределённых признаков можем применить критерий Манна-Уитни, однако прежде посмотрим на симметричност по группам:

df.skew <- data.frame(IND = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)){
  df.skew[df.skew$IND == i, ] <- c(i, skewness(get_df_on_ind(i)$BODY_WEI, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$BRAIN_WE, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$SLOWWAVE, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$PARADOX, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$SLEEP, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$LIFESPAN, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$GESTTIME, na.rm = TRUE))
}

df.skew |> print_df()
IND BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 0.1672298 0.5645030 -0.0002586 -0.5598674 0.3874961 1.0385890 0.5038765
2 -1.4951275 -1.6495435 0.5921447 -0.1315432 0.1049490 0.0122452 0.1394734
5 -0.1198309 0.0708243 1.0734624 -0.1861544 1.5538884 0.5578426 -1.0319607

Видим, что асимметрия веса тела и веса мозга у второй группы (ненормально распределённые признаки) сильно (примерно на порядок) отличается от первой и пятой группы. Аналогично: асимметрия времени сна и времени беременности пятой группы сильно отличается от первой и пятой. Для асимметрии времени быстрого сна у пятой группы и первой также нет оснований говорить о приблизительном равенстве, однако между пятой и второй группой разница мала, меньше \(0.5\), что может говорить об удовлетворении условий для критерия, однако надо ещё посмотреть на исправленную выборочную дисперсию:

df.var <- data.frame(IND = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)){
  df.var[df.var$IND == i, ] <- c(i, var(get_df_on_ind(i)$BODY_WEI, na.rm = TRUE),
                                    var(get_df_on_ind(i)$BRAIN_WE, na.rm = TRUE),
                                    var(get_df_on_ind(i)$SLOWWAVE, na.rm = TRUE),
                                    var(get_df_on_ind(i)$PARADOX, na.rm = TRUE),
                                    var(get_df_on_ind(i)$SLEEP, na.rm = TRUE),
                                    var(get_df_on_ind(i)$LIFESPAN, na.rm = TRUE),
                                    var(get_df_on_ind(i)$GESTTIME, na.rm = TRUE))
}

df.var |> print_df()
IND BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
1 6.034299 4.526511 7.279905 0.3159571 12.914130 0.9033046 0.8095168
2 3.443109 2.189395 12.449889 0.4525376 15.658077 0.9042128 0.6633179
5 4.599834 2.815790 3.733333 0.2533922 3.156556 0.1911274 0.9828249

Видим, что дисперсии времени медленного сна для пятой и второй группы даже приблизительно не равны, поэтому ни один из признаков, которые мы хотели проверить не подходят для применения критерия Манна-Уитни. То есть для них мы ничего не можем сказать о равенстве распределений.

10. Коэффициент Пирсона

pairwise.cor <- function(data, name_method = "pearson"){
  m <- cor(data)
  m.p.value <- cor(data)
  
  for (i in colnames(data)){
    for (j in colnames(data)){
      data.out <- data|> filter(!is.na(data[[i]]) & !is.na(data[[j]]))
      m[i, j] <- cor(x = data.out[[i]], y = data.out[[j]], method = name_method)
      m.p.value[i, j] <- cor.test(x = as.vector(data.out[[i]]), y = as.vector(data.out[[j]]), method = name_method)$p.value
    }
  }
  
  corrplot(m, method = "number")
  as.data.frame(m.p.value)
}

Перед вычислением коэффициента корреляции Пирсона посмотрим на нормальность признаков для всех индивидов по тесту Шапиро-Уилка:

df.shapiro.test.all.p.value <- data.frame(BODY_WEI_P = 0, BRAIN_WE_P = 0, SLOWWAVE_P = 0, PARADOX_P = 0, SLEEP_P = 0, LIFESPAN_P = 0, GESTTIME_P = 0)

for (i in c(1)) {
  df.shapiro.test.all.p.value[1, ] <- c(shapiro.test(df.log.out$BODY_WEI)$p.value, 
  shapiro.test(df.log.out$BRAIN_WE)$p.value,
  shapiro.test(df.log.out$SLOWWAVE)$p.value,
  shapiro.test(df.log.out$PARADOX)$p.value,
  shapiro.test(df.log.out$SLEEP)$p.value,
  shapiro.test(df.log.out$LIFESPAN)$p.value,
  shapiro.test(df.log.out$GESTTIME)$p.value)
}

df.shapiro.test.all.p.value |> print_df()
BODY_WEI_P BRAIN_WE_P SLOWWAVE_P PARADOX_P SLEEP_P LIFESPAN_P GESTTIME_P
0.6745281 0.7912255 0.7502073 0.8786641 0.2600607 0.334608 0.1265908

Как видим по p-value можем считать, что распределения похожи на нормальные, поэтому критерий проверки на значимость коэффициента корреляции будет проверять ещё и независимость признаков, а также коэффициент Спирмена будет примерно равен коэффициенту Пирсона.

Теперь посчитаем коэффициенты корреляции Пирсона для всех пар признаков, причём удаление NA будем производить попарно, чтобы для каждой пары получить максимальное количество индивидов:

df.log.out |> 
  mutate(BRAIN_BODY = log(exp(BRAIN_WE) / exp(BODY_WEI))) |>
  dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor() |> 
  print_df()
BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME BRAIN_BODY
BODY_WEI 0.0000000 0.0000000 0.0003011 0.0182618 0.0002898 0.0000000 0.0000000 0.0000000
BRAIN_WE 0.0000000 0.0000000 0.0004412 0.0043862 0.0000914 0.0000000 0.0000000 0.0000397
SLOWWAVE 0.0003011 0.0004412 0.0000000 0.0000332 0.0000000 0.0008653 0.0000535 0.0414927
PARADOX 0.0182618 0.0043862 0.0000332 0.0000000 0.0000000 0.0060667 0.0000022 0.7322638
SLEEP 0.0002898 0.0000914 0.0000000 0.0000000 0.0000000 0.0000957 0.0000000 0.1188045
LIFESPAN 0.0000000 0.0000000 0.0008653 0.0060667 0.0000957 0.0000000 0.0000000 0.0241044
GESTTIME 0.0000000 0.0000000 0.0000535 0.0000022 0.0000000 0.0000000 0.0000000 0.0144867
BRAIN_BODY 0.0000000 0.0000397 0.0414927 0.7322638 0.1188045 0.0241044 0.0144867 0.0000000

Видим, что для всех пар признаков критерий даёт p-value меньше \(\alpha = 0.05\), то есть отвергаем гипотезу о незначимости зависимсоти для этих признаков.

Зависимости:

  1. Вес мозга зависит от веса тела;

  2. Общая продолжительность сна зависит от медленного и быстрого сна, а также они зависят друг от друга, но скорее косвенно, так как это соотношение скорее индивидуально для каждого животного;

  3. Время беременности зависит от продолжительности жизни, так как беременность не должна занимать большей части жизни из-за уязвимости такого животного;

  4. Чем больше животное, тем дольше беременность и продолжительность жизни, так как крупное животное требует как большого формирования во время беременности, так как и большего времени взросления;

  5. Также от размера мозга зависит продолжительность жизни, однако эта зависимость не является прямой, так как если мы рассмотрим долю веса мозга к весу тела, то корреляция значительно упадёт;

  6. Зависимости между сном и весом тела, сном и продолжительностью жизни или сном и времени беременности достаточно сложно объяснить, для этого нужно углублятся в сложные биологичесике процессы.

11. Коэффициент Спирмена

Проверим, что ранговый коэффициент корреляции Спирмена примерно равен Пирсону:

df.log.out |> 
 dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor(name_method = "spearman") |> 
  print_df()
BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME
BODY_WEI 0.0000000 0.0000000 0.0019593 0.0063690 0.0004095 0.0000000 0.00e+00
BRAIN_WE 0.0000000 0.0000000 0.0008980 0.0004787 0.0000531 0.0000000 0.00e+00
SLOWWAVE 0.0019593 0.0008980 0.0000000 0.0000730 0.0000000 0.0010380 1.59e-05
PARADOX 0.0063690 0.0004787 0.0000730 0.0000000 0.0000000 0.0026538 2.60e-06
SLEEP 0.0004095 0.0000531 0.0000000 0.0000000 0.0000000 0.0000883 1.00e-07
LIFESPAN 0.0000000 0.0000000 0.0010380 0.0026538 0.0000883 0.0000000 0.00e+00
GESTTIME 0.0000000 0.0000000 0.0000159 0.0000026 0.0000001 0.0000000 0.00e+00

Результаты схожи и это не удивительно, ведь мы считаем, что данные похожи на нормальные, а для них отличие коэффициента Пирсона от Спирмена незначительно.

12. Частные корреляционные отношения

Однако возникает подозрение, что многие зависимости имеют другую причину, нежели зависимость только друг от друга. Как было видно по ящикам с усами для индекса опасности места для сна есть монотонная зависимость почти всех признаков от этого индекса. Поэтому возникает идея проверки коэффициента частной корреляции с вычетом влияния этого индекса.

df.log.out |> 
  group_by(EXP_IND) |> 
  mutate(BODY_WEI = BODY_WEI - mean(BODY_WEI, na.rm = TRUE), BRAIN_WE = BRAIN_WE - mean(BRAIN_WE, na.rm = TRUE), SLOWWAVE = SLOWWAVE - mean(SLOWWAVE, na.rm = TRUE), PARADOX = PARADOX - mean(PARADOX, na.rm = TRUE), SLEEP = SLEEP - mean(SLEEP, na.rm = TRUE), LIFESPAN = LIFESPAN - mean(LIFESPAN, na.rm = TRUE), GESTTIME = GESTTIME - mean(GESTTIME, na.rm = TRUE)) |>
  group_by(.drop = TRUE) |> dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor() |> 
  print_df()
BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME
BODY_WEI 0.0000000 0.0000000 0.1044414 0.3927193 0.5207584 0.0000000 0.0000003
BRAIN_WE 0.0000000 0.0000000 0.0715185 0.9971036 0.1841235 0.0000000 0.0000000
SLOWWAVE 0.1044414 0.0715185 0.0000000 0.0055510 0.0000000 0.0723565 0.0053589
PARADOX 0.3927193 0.9971036 0.0055510 0.0000000 0.0000016 0.7878256 0.0094343
SLEEP 0.5207584 0.1841235 0.0000000 0.0000016 0.0000000 0.0607429 0.0002778
LIFESPAN 0.0000000 0.0000000 0.0723565 0.7878256 0.0607429 0.0000000 0.0000633
GESTTIME 0.0000003 0.0000000 0.0053589 0.0094343 0.0002778 0.0000633 0.0000000

Здесь мы видим, что достаточно много зависимостей перестали быть значимыми (\(\alpha = 0.05\)), так как мы исключили влияние индекса опасности места для сна. Ожидаемо зависимости всех видов сна от веса тела, веса мозга и продолжительности сна значительно ослабли, однако зависимости сна от времени беременности уменьшились мало.

13. Множественная регрессия

Посмотрим на данные:

df.log.out |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)

Всё, что нужно, было прологарифмировано раньше, поэтому приступим к регрессии. Хотим прогнозировать время жизни по остальным данным.

Строим регрессию по всем признакам:

df.log.out.na <- df.log.out |> dplyr::filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME))
model <- lm(LIFESPAN ~ ., df.log.out.na |> dplyr::select(-NAME))
model.beta <- lm.beta(model)
summary(model.beta)

Call:
lm(formula = LIFESPAN ~ ., data = dplyr::select(df.log.out.na, 
    -NAME))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.77116 -0.16275  0.02196  0.12238  0.51269 

Coefficients:
             Estimate Standardized Std. Error t value Pr(>|t|)    
(Intercept)  1.348343           NA   0.903753   1.492 0.151321    
BODY_WEI    -0.022443    -0.065240   0.096158  -0.233 0.817825    
BRAIN_WE     0.461812     1.096994   0.104491   4.420 0.000264 ***
SLOWWAVE     0.095508     0.327255   0.176317   0.542 0.594021    
PARADOX      0.121882     0.080915   0.338311   0.360 0.722426    
SLEEP       -0.050191    -0.215930   0.181925  -0.276 0.785466    
GESTTIME    -0.099790    -0.105443   0.159882  -0.624 0.539586    
PRED_IND2   -0.882934    -0.383209   0.482871  -1.829 0.082427 .  
PRED_IND3   -1.451831    -0.553794   0.624294  -2.326 0.030675 *  
PRED_IND4   -1.151949    -0.439406   0.754374  -1.527 0.142415    
PRED_IND5   -1.098412    -0.459997   0.796382  -1.379 0.183047    
EXP_IND2     0.069167     0.027761   0.224152   0.309 0.760836    
EXP_IND3     0.027348     0.008247   0.293812   0.093 0.926767    
EXP_IND4    -0.385732    -0.116321   0.421313  -0.916 0.370812    
EXP_IND5     0.003063     0.001169   0.555897   0.006 0.995658    
DANG_IND2    0.703874     0.294771   0.457148   1.540 0.139305    
DANG_IND3    1.044139     0.398282   0.624193   1.673 0.109941    
DANG_IND4    1.275729     0.534255   0.811954   1.571 0.131827    
DANG_IND5    1.162274     0.386226   1.122186   1.036 0.312693    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3471 on 20 degrees of freedom
Multiple R-squared:  0.939, Adjusted R-squared:  0.884 
F-statistic: 17.09 on 18 and 20 DF,  p-value: 1.994e-08

Регрессия значима, но значимых коэффициентов на уровне \(\alpha = 0.05\) только два: для веса мозга и для фиктивной переменной индекса хищничества при значении \(3\).

14. Доверительные эллипсы

Посчитаем ковариационную и корреляционную матрицу для коэффициентов регрессии:

dummy.variable <- data.frame(NAME = df.log.out.na$NAME)

for (i in 2:5){
  dummy.variable[[paste("PRED_IND", i, sep = "_")]] = ifelse(df.log.out.na$PRED_IND == i, 1, 0)
}
for (i in 2:5){
  dummy.variable[[paste("EXP_IND", i, sep = "_")]] = ifelse(df.log.out.na$EXP_IND == i, 1, 0)
}
for (i in 2:5){
  dummy.variable[[paste("DANG_IND", i, sep = "_")]] = ifelse(df.log.out.na$DANG_IND == i, 1, 0)
}

n.df <- length(df.log.out.na$NAME)
sigma.df <- sum(model$residuals ** 2) / (n.df - model$rank)
covMatrix.df <- df.log.out.na |> dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> cbind(dummy.variable |> dplyr::select(-NAME)) |> cov()
cov_b.df <- sigma.df / n.df * solve(covMatrix.df)
cov_beta.df <- sigma.df / n.df * solve(cov2cor(covMatrix.df))
cor_b.df <- cov2cor(cov_b.df)
corrplot(cor_b.df, method = "color")

Видим сильную корреляцию между между оценками коэффициентов регрессии между весом тела и мозга, между всеми видами сна, между индексами общей опасности и хищничества, а также между весом мозга и продолжительностью жизни.

Посмотрим на доверительный эллипсоид для значимых коэффициентов, обозначенных выше:

plot(ellipse::ellipse(cov_beta.df[c(2, 9), c(2, 9)], centre = model.beta$standardized.coefficients[c(3, 9)], level=0.95, npoints = 100), type = "l", asp = 1)
lines(x = c(-2, 2), y = c(2, -2), col = "red")

Он имеет плохой вид: либо оба имеет сильное влияние, либо оба — слабое. Причём индекс хищничества может быть совсем не значим, так как эллипс пересекает нулевое значение по \(y\).

15. Сильно коррелирующие признаки

Построим таблицу VIF:

ols_vif_tol(model)

Наблюдаем очень большую мультиколлинеарность почти по всем признакам.

Теперь таблица с частичными корреляциями:

ols_correlations(model)
                Correlations                 
--------------------------------------------
Variable     Zero Order    Partial     Part  
--------------------------------------------
BODY_WEI          0.842     -0.052    -0.013 
BRAIN_WE          0.933      0.703     0.244 
SLOWWAVE         -0.497      0.120     0.030 
PARADOX          -0.369      0.080     0.020 
SLEEP            -0.517     -0.062    -0.015 
GESTTIME          0.737     -0.138    -0.034 
PRED_IND2        -0.209     -0.378    -0.101 
PRED_IND3        -0.241     -0.461    -0.128 
PRED_IND4         0.075     -0.323    -0.084 
PRED_IND5         0.090     -0.295    -0.076 
EXP_IND2         -0.243      0.069     0.017 
EXP_IND3          0.220      0.021     0.005 
EXP_IND4          0.158     -0.201    -0.051 
EXP_IND5          0.455      0.001     0.000 
DANG_IND2        -0.215      0.326     0.085 
DANG_IND3        -0.399      0.350     0.092 
DANG_IND4         0.218      0.331     0.087 
DANG_IND5         0.307      0.226     0.057 
--------------------------------------------

Сильное влияние на зависимую переменную за исключением остальных оказывают, в перую очередь, вес мозга, а также индекс хищничества и общий индекс опасности (хотя он сильно зависит от индекса хищничества).

Попробуем убрать сильно коррелирующие. Уберём вес тела, общее время сна и общий индекс опасности:

model.minuscor <- lm(LIFESPAN ~ ., df.log.out.na |> dplyr::select(-NAME, -BODY_WEI, - SLEEP, -DANG_IND))
model.minuscor.beta <- lm.beta(model.minuscor)
summary(model.minuscor.beta)

Call:
lm(formula = LIFESPAN ~ ., data = dplyr::select(df.log.out.na, 
    -NAME, -BODY_WEI, -SLEEP, -DANG_IND))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.70225 -0.16574  0.03341  0.20078  0.47870 

Coefficients:
             Estimate Standardized Std. Error t value Pr(>|t|)    
(Intercept)  1.552951           NA   0.629838   2.466   0.0206 *  
BRAIN_WE     0.427375     1.015193   0.061132   6.991 2.01e-07 ***
SLOWWAVE     0.023400     0.080180   0.029182   0.802   0.4299    
PARADOX     -0.079520    -0.052792   0.153749  -0.517   0.6094    
GESTTIME    -0.087863    -0.092841   0.130827  -0.672   0.5078    
PRED_IND2   -0.371255    -0.161131   0.227439  -1.632   0.1147    
PRED_IND3   -0.534832    -0.204009   0.240393  -2.225   0.0350 *  
PRED_IND4   -0.062608    -0.023882   0.326654  -0.192   0.8495    
PRED_IND5   -0.053963    -0.022599   0.345540  -0.156   0.8771    
EXP_IND2     0.206412     0.082846   0.184211   1.121   0.2727    
EXP_IND3     0.121182     0.036543   0.258597   0.469   0.6433    
EXP_IND4    -0.189088    -0.057021   0.323711  -0.584   0.5642    
EXP_IND5    -0.020639    -0.007873   0.357456  -0.058   0.9544    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3648 on 26 degrees of freedom
Multiple R-squared:  0.9123,    Adjusted R-squared:  0.8719 
F-statistic: 22.55 on 12 and 26 DF,  p-value: 1.012e-10

По значимости имеем ту же ситуацию, однако значимость по p-value подросла, а \(R^2\) почти не изменился.

Мультиколлинеарность исчезла:

ols_vif_tol(model.minuscor)

16. Пошаговая регрессия

Backward

Построим пошаговую регрессию. Сначала рассмотрим убавление количества параметров:

st.bw.lm <- ols_step_backward_p(model.minuscor)
st.bw.lm

                            Stepwise Summary                             
-----------------------------------------------------------------------
Step    Variable       AIC       SBC       SBIC        R2       Adj. R2 
-----------------------------------------------------------------------
 0      Full Model    44.212    67.502    -71.965    0.91234    0.87188 
 1      PARADOX       42.612    64.238    -74.719    0.91144    0.87536 
 2      GESTTIME      40.951    60.914    -77.453    0.91066    0.87875 
 3      EXP_IND       35.968    49.276    -78.073    0.90348    0.88538 
 4      SLOWWAVE      34.481    46.126    -80.367    0.90220    0.88738 
-----------------------------------------------------------------------

Final Model Output 
------------------

                        Model Summary                          
--------------------------------------------------------------
R                       0.950       RMSE                0.315 
R-Squared               0.902       MSE                 0.117 
Adj. R-Squared          0.887       Coef. Var          14.153 
Pred R-Squared          0.864       AIC                34.481 
MAE                     0.260       SBC                46.126 
--------------------------------------------------------------
 RMSE: Root Mean Square Error 
 MSE: Mean Square Error 
 MAE: Mean Absolute Error 
 AIC: Akaike Information Criteria 
 SBC: Schwarz Bayesian Criteria 

                               ANOVA                                
-------------------------------------------------------------------
               Sum of                                              
              Squares        DF    Mean Square      F         Sig. 
-------------------------------------------------------------------
Regression     35.614         5          7.123    60.884    0.0000 
Residual        3.861        33          0.117                     
Total          39.475        38                                    
-------------------------------------------------------------------

                                  Parameter Estimates                                    
----------------------------------------------------------------------------------------
      model      Beta    Std. Error    Std. Beta      t        Sig      lower     upper 
----------------------------------------------------------------------------------------
(Intercept)     1.534         0.175                  8.760    0.000     1.178     1.890 
   BRAIN_WE     0.375         0.024        0.890    15.606    0.000     0.326     0.424 
  PRED_IND2    -0.311         0.184       -0.135    -1.686    0.101    -0.685     0.064 
  PRED_IND3    -0.569         0.196       -0.217    -2.909    0.006    -0.968    -0.171 
  PRED_IND4    -0.150         0.193       -0.057    -0.777    0.443    -0.541     0.242 
  PRED_IND5    -0.114         0.183       -0.048    -0.625    0.536    -0.487     0.258 
----------------------------------------------------------------------------------------

Как это выглядит по шагам:

plot(st.bw.lm)

Какая же модель получается в итоге:

summary(st.bw.lm$model)

Call:
lm(formula = paste(response, "~", paste(c(include, cterms), collapse = " + ")), 
    data = l)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.7207 -0.2307 -0.0212  0.2462  0.5830 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.53397    0.17511   8.760 3.99e-10 ***
BRAIN_WE     0.37477    0.02401  15.606  < 2e-16 ***
PRED_IND2   -0.31054    0.18418  -1.686  0.10121    
PRED_IND3   -0.56931    0.19574  -2.909  0.00645 ** 
PRED_IND4   -0.14951    0.19252  -0.777  0.44291    
PRED_IND5   -0.11438    0.18295  -0.625  0.53612    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.342 on 33 degrees of freedom
Multiple R-squared:  0.9022,    Adjusted R-squared:  0.8874 
F-statistic: 60.88 on 5 and 33 DF,  p-value: 1.066e-15

Осталось \(2\) признака, удалились время беременности, быстрый сон, медленный сон и индекс воздействия сна.

Forward

Теперь будем добавлять признаки:

st.fw.lm <- ols_step_forward_p(model.minuscor)
st.fw.lm

                             Stepwise Summary                              
-------------------------------------------------------------------------
Step    Variable        AIC        SBC       SBIC        R2       Adj. R2 
-------------------------------------------------------------------------
 0      Base Model    115.149    118.476      1.181    0.00000    0.00000 
 1      BRAIN_WE       37.664     42.655    -73.233    0.86972    0.86620 
 2      PRED_IND       34.481     46.126    -80.767    0.90220    0.88738 
-------------------------------------------------------------------------

Final Model Output 
------------------

                        Model Summary                          
--------------------------------------------------------------
R                       0.950       RMSE                0.315 
R-Squared               0.902       MSE                 0.117 
Adj. R-Squared          0.887       Coef. Var          14.153 
Pred R-Squared          0.864       AIC                34.481 
MAE                     0.260       SBC                46.126 
--------------------------------------------------------------
 RMSE: Root Mean Square Error 
 MSE: Mean Square Error 
 MAE: Mean Absolute Error 
 AIC: Akaike Information Criteria 
 SBC: Schwarz Bayesian Criteria 

                               ANOVA                                
-------------------------------------------------------------------
               Sum of                                              
              Squares        DF    Mean Square      F         Sig. 
-------------------------------------------------------------------
Regression     35.614         5          7.123    60.884    0.0000 
Residual        3.861        33          0.117                     
Total          39.475        38                                    
-------------------------------------------------------------------

                                  Parameter Estimates                                    
----------------------------------------------------------------------------------------
      model      Beta    Std. Error    Std. Beta      t        Sig      lower     upper 
----------------------------------------------------------------------------------------
(Intercept)     1.534         0.175                  8.760    0.000     1.178     1.890 
   BRAIN_WE     0.375         0.024        0.890    15.606    0.000     0.326     0.424 
  PRED_IND2    -0.311         0.184       -0.135    -1.686    0.101    -0.685     0.064 
  PRED_IND3    -0.569         0.196       -0.217    -2.909    0.006    -0.968    -0.171 
  PRED_IND4    -0.150         0.193       -0.057    -0.777    0.443    -0.541     0.242 
  PRED_IND5    -0.114         0.183       -0.048    -0.625    0.536    -0.487     0.258 
----------------------------------------------------------------------------------------

Как это выглядело на графике:

plot(st.fw.lm)

Какую же модель получили:

summary(st.fw.lm$model)

Call:
lm(formula = paste(response, "~", paste(preds, collapse = " + ")), 
    data = l)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.7207 -0.2307 -0.0212  0.2462  0.5830 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.53397    0.17511   8.760 3.99e-10 ***
BRAIN_WE     0.37477    0.02401  15.606  < 2e-16 ***
PRED_IND2   -0.31054    0.18418  -1.686  0.10121    
PRED_IND3   -0.56931    0.19574  -2.909  0.00645 ** 
PRED_IND4   -0.14951    0.19252  -0.777  0.44291    
PRED_IND5   -0.11438    0.18295  -0.625  0.53612    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.342 on 33 degrees of freedom
Multiple R-squared:  0.9022,    Adjusted R-squared:  0.8874 
F-statistic: 60.88 on 5 and 33 DF,  p-value: 1.066e-15

Она аналогична той, которую получили от backward.

Однако только при одном значении индекса хищничества коэффициент значимый, поэтому вручную создадим фиктивные переменные и проведём опять автоматический отбор:

df.log.out.dummy <- df.log.out.na
for (i in 2:5){
  df.log.out.dummy[[paste("PRED_IND", i, sep = "_")]] <- ifelse(df.log.out.dummy$PRED_IND == i, 1, 0)
}
model.out.dummy <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3 + PRED_IND_4 + PRED_IND_5, data = df.log.out.dummy)
st.bw.lm.dummy <- ols_step_backward_p(model.out.dummy)
plot(st.bw.lm.dummy)

summary(st.bw.lm.dummy$model)

Call:
lm(formula = paste(response, "~", paste(c(include, cterms), collapse = " + ")), 
    data = l)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.63197 -0.23515 -0.04439  0.22367  0.67817 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.42794    0.10776  13.251 3.35e-15 ***
BRAIN_WE     0.37812    0.02315  16.332  < 2e-16 ***
PRED_IND_2  -0.21197    0.13117  -1.616  0.11507    
PRED_IND_3  -0.47162    0.14733  -3.201  0.00291 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3354 on 35 degrees of freedom
Multiple R-squared:  0.9003,    Adjusted R-squared:  0.8917 
F-statistic: 105.3 on 3 and 35 DF,  p-value: < 2.2e-16

Осталось два значения индекса хищничества.

17. Остатки и Predicted vs Residuals

Нашли лучшую модель регрессии. Добавим те наблюдения, которые имели пропущенные значения только на убранных данных:

df.log.na.best <- df.log |> filter(!is.na(LIFESPAN))
for (i in 2:5){
  df.log.na.best[[paste("PRED_IND", i, sep = "_")]] <- ifelse(df.log.na.best$PRED_IND == i, 1, 0)
}
model.best <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best)
model.beta.best <- lm.beta(model.best)
summary(model.beta.best)

Call:
lm(formula = LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.12708 -0.35389 -0.02041  0.23742  1.77925 

Coefficients:
            Estimate Standardized Std. Error t value Pr(>|t|)    
(Intercept)  1.80029           NA    0.14546  12.377  < 2e-16 ***
BRAIN_WE     0.28962      0.76276    0.03015   9.605 2.79e-13 ***
PRED_IND_2  -0.22525     -0.10042    0.18422  -1.223  0.22676    
PRED_IND_3  -0.52686     -0.22082    0.19306  -2.729  0.00856 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5536 on 54 degrees of freedom
Multiple R-squared:  0.6738,    Adjusted R-squared:  0.6557 
F-statistic: 37.19 on 3 and 54 DF,  p-value: 3.589e-13

Ясно, что согласованность модели упала, так как мы построили её на большем наборе данных (плюс были добавлены выбросы, удаленные раньше).

Теперь посмотрим на нормальность остатков (хотим точность проверяемых критериев):

plot(model.best, which=2)

Видим, что справа нормальности не наблюдается, хотя на основном массиве данных нормальность присутствует.

Теперь посмотрим на график Predicted vs Residuals:

plot(model.best,which=1)

Видим достаточно равномерное распределение в прямоугольной области около нуля. То есть можно предположить адекватность выбранной линейной модели, а также гомогедостичность (то есть равенство дисперсий остатков).

График Residuls vs Deleted Residuals:

del_res <- sapply(1:58, function(n) df.log.na.best$LIFESPAN[n] - predict(lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best[-n, ]), df.log.na.best[n, ]))
plot(x = model.best$residuals, y = del_res, xlab = "Rsiduals", ylab = "Deleted residuals")
lines(x = c(-3, 3), y = c(-3, 3))
abline(lm(del_res ~ model.best$residuals), col = "blue")
text(x = model.best$residuals, y = del_res, labels = rownames(df.log.na.best), cex = 0.6, pos = 4, col = "red")

Как и ожидалось, точки расположились под чуть большим наклоном, нежели \(y = x\). Больших отклонений (по линии регресии на этих точках) не видно, то есть сказать что-то о выбросах нельзя.

18. Выбросы по Махаланобису

df.log.na.best.x <- df.log.na.best |> dplyr::select(BRAIN_WE, PRED_IND_2, PRED_IND_3)

cov_matrix <- cov(df.log.na.best.x)

mahalanobis_distance <- mahalanobis(df.log.na.best.x, center = colMeans(df.log.na.best.x), cov = cov_matrix)

plot(mahalanobis_distance, 
     main = "Mahalanobis Distance Plot",
     xlab = "Observation",
     ylab = "Mahalanobis Distance",
     type = "h", 
     col = "darkblue") 

plot(sort(mahalanobis_distance), 
     main = "Mahalanobis Distance Plot",
     xlab = "Observation",
     ylab = "Mahalanobis Distance",
     type = "h", 
     col = "darkblue") 

По Махаланобису виден скачок для двух наблюдений: \(1\) и \(4\). Это два слона:

NAME BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME PRED_IND EXP_IND DANG_IND PRED_IND_2 PRED_IND_3 PRED_IND_4 PRED_IND_5
African elephant 8.802974 8.650324 NA NA 3.3 3.653252 6.46925 3 5 3 0 1 0 0
Asian elephant 7.842671 8.434463 2.1 0.5877867 3.9 4.234107 6.43615 3 5 4 0 1 0 0

19. Выбросы по Куку

cooks_distance <- cooks.distance(model.best)

plot(cooks_distance, 
     col = "darkblue",
     type = "h", 
     main = "Cook's Distance",
     xlab = "Observation",
     ylab = "Cook's Distance")

plot(sort(cooks_distance), 
     col = "darkblue",
     type = "h", 
     main = "Cook's Distance",
     xlab = "Observation",
     ylab = "Cook's Distance")

По скачку значения расстояния Кука можно выделить три наблюдения: 6, 14 и 31. Это те самые летучие мыши и ещё ехидна:

df.log.na.best[c(6, 14, 31), ] |> print_df()
NAME BODY_WEI BRAIN_WE SLOWWAVE PARADOX SLEEP LIFESPAN GESTTIME PRED_IND EXP_IND DANG_IND PRED_IND_2 PRED_IND_3 PRED_IND_4 PRED_IND_5
Big brown bat -3.772261 -1.203973 15.8 1.3609766 19.7 2.944439 3.555348 1 1 1 0 0 0 0
Echidna 1.098612 3.218876 8.6 NA 8.6 3.912023 3.332205 2 2 2 1 0 0 0
Little brown bat -4.605170 -1.386294 17.9 0.6931472 19.9 3.178054 3.912023 1 1 1 0 0 0 0

20. Studentized Residuals vs Leverage Plot

Наконец посмотрим на соотношение рычага и остатков:

ols_plot_resid_lev(model.best)

Здесь явных выбросов нет: по остаткам, за пределами доверительного интервала небольшое количество наблюдений, по рычагу два кандидата на выбросы — слоны, а наблюдений, которые бы были и по рычагу и по остаткам “выбросами”, нет.

21. Исключаем выбросы

Найденные выбросы имеют определённый смысл — большие и средне атакуемые слоны, маленькие, но долгоживущие летучие мыши и такая же ехидна. Слонов исключать не будем, так как они просто большие, поэтому Махаланобис их выделяет, однако они хорошо согласуются с моделью (видно по картинке, например). Исключим выбросы:

model.best.out <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best[c(-6, -14, -31),])
model.best.out.beta <- lm.beta(model.best.out)
summary(model.best.out.beta)

Call:
lm(formula = LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best[c(-6, 
    -14, -31), ])

Residuals:
    Min      1Q  Median      3Q     Max 
-1.0491 -0.2596  0.0245  0.2405  1.0616 

Coefficients:
            Estimate Standardized Std. Error t value Pr(>|t|)    
(Intercept)  1.47436           NA    0.11487  12.835   <2e-16 ***
BRAIN_WE     0.34604      0.87394    0.02316  14.941   <2e-16 ***
PRED_IND_2  -0.15023     -0.06611    0.13724  -1.095    0.279    
PRED_IND_3  -0.36992     -0.15766    0.13833  -2.674    0.010 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3905 on 51 degrees of freedom
Multiple R-squared:  0.8394,    Adjusted R-squared:   0.83 
F-statistic: 88.87 on 3 and 51 DF,  p-value: < 2.2e-16

Судя по \(R^2\) и его исправленному варианту, а также по p-value значимости регрессии, получили более хорошую модель.

22. Предсказания

Предскажем время жизниобыкновенного ежа. Вес его мозга\(3.3\) г, имеет защиту от хищников, но крупные хищные птицы успешно их атакуют, поэтому индекс хищничества — примерно \(3\). В неволе ежи живут \(4\)-\(6\) лет. Пусть будет \(5\):

data.hedgehog <- data.frame(NAME = "European hedgehog", BRAIN_WE = log(3.3), LIFESPAN = log(5), PRED_IND_2 = 0, PRED_IND_3 = 1)
data.hedgehog |> print_df()
NAME BRAIN_WE LIFESPAN PRED_IND_2 PRED_IND_3
European hedgehog 1.193922 1.609438 0 1

Предскажем его продолжительность жизни:

pred.hedgehog.pred <- predict(model.best.out, newdata = data.hedgehog, interval = "predict")
pred.hedgehog.conf <- predict(model.best.out, newdata = data.hedgehog, interval = "confidence")
exp(pred.hedgehog.pred[, 1])
[1] 4.561225

Получили цифры близкие к действительности. Посмотрим на предсказательный интервал:

print("Нижняя граница:")
[1] "Нижняя граница:"
exp(pred.hedgehog.pred[, 2])
[1] 2.002536
print("Верхняя граница:")
[1] "Верхняя граница:"
exp(pred.hedgehog.pred[, 3])
[1] 10.38922

Ежи в неволе могут жить до 10 лет.

А теперь на доверительный:

print("Нижняя граница:")
[1] "Нижняя граница:"
exp(pred.hedgehog.conf[, 2])
[1] 3.549484
print("Верхняя граница:")
[1] "Верхняя граница:"
exp(pred.hedgehog.conf[, 3])
[1] 5.861353
---
title: "Sleep"
author: "Oleynik Michael"
date: "2023-11-20"
output: html_notebook
---

## 0. Библиотеки и предварительная подготовка

```{r message=FALSE}
library(readxl)
library(dplyr)
library(scatterPlotMatrix)
library(kableExtra)
library(psych)
library(summarytools)
library(ggplot2)
library(GGally)
library(nortest)
library(moments)
library(ppcor)
library(corrplot)
library(lm.beta)
library(ellipse)
library(car)
library(olsrr)
print_df <- function(df)
{
  df |>
    kable(format = "html") |>
    kable_styling() |>
    kableExtra::scroll_box(width = "100%", height = "100%")
}

plot_qq_graph <- function(data, column_name) {
  data<-data
  expected_quantiles <- qnorm(ppoints(length(data)))
  qqnorm(data,  pch = 19, col = "deeppink")
  qqline(data, distribution = qnorm, lwd = 2, col = "limegreen")
  legend("topleft", legend = column_name, col = "deeppink", pch = 19)
}

plot_pp_plot <- function(data, column_name) {
  n <- length(data)
  expect_prob <- pnorm(data, mean(data), sqrt(var(data) * (n - 1) / n))
  expect_prob <- sort(expect_prob)
  plot(x = expect_prob, y = ppoints(n), col = "red")
  lines(x = c(0, 1), y = c(0, 1), col = "blue")
  legend("topleft", legend = column_name, col = "deeppink", pch = 19)
}
```

## 1. Загрузка и предобработка данных

```{r}
df <- read_excel("stat2021_sm/Sleep/SLEEP_shortname.xls", )
df <- df |> mutate(SLEEP = ifelse(SLEEP < 0, NA, SLEEP), PARADOX = ifelse(is.infinite(PARADOX), NA, PARADOX), PRED_IND = as.factor(PRED_IND), EXP_IND = as.factor(EXP_IND), DANG_IND = as.factor(DANG_IND)) 
df |> slice(1:10) |> print_df()
```

## 2. Описание признаков

1. ***NAME*** --- название животного --- **качественный признак**
2. ***BODY_WEI*** --- вес тела в килограммах --- **количественны непрерывный признак**
3. ***BRAIN_WE	*** --- вес мозга в граммах --- **количественный непрерывный признак**
4. ***SLOWWAVE*** --- время медленного сна, часов в день --- **количественный непрерывный признак**
5. ***PARADOX*** ---время быстрого сна, часов в день  --- **количественный непрерывный признак**
6. ***SLEEP*** --- общее время сна, часов в день --- **количественный непрерывный признак**
7. ***LIFESPAN*** --- продолжительность жизни в годах --- **количественный непрерывный признак**
8. ***GESTTIME*** --- время беременности в днях --- **количественный непрерывный признак**
9. ***PRED_IND*** --- индекс хищничества (1 --- наименее вероятный объект для охоты, 5 --- наиболее вероятный объект для охоты) --- **порядковый признак**
10. ***EXP_IND*** --- индекс воздействия во время сна (1 --- наименее подверженный воздействию (например, животное спит в
хорошо защищенном логове), 5 --- наиболее подверженный воздействию) --- **порядковый признак**
11. ***DANG_IND*** --- общий индекс опасности (на основе двух вышеуказанных индексов и другой информации) (1 --- наименьшая опасность (от других животных), 5 --- наибольшая опасность (со стороны других животных)) --- **порядковый признак**

## 3. Матричный график разброса

```{r}
categories <-list(NULL, NULL, NULL, NULL, NULL, NULL, NULL, 1:5, 1:5, 1:5)
df |> dplyr::select(-NAME) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)
```

Видим достаточно логичные кандидаты на логарифмирование: **вес тела**, **вес мозга**, **продолжительность жизни** и **время беременности** --- это мультиплекативные признаки. Также **время быстрого сна** имеет перекос влево, так что лучше его тоже отлогарифмировать, хотя логически, так как **время сна** содержит в себе **время быстрого сна**, этот признак не является мультиплекативным, а также не имеет нелинейную зависимость. Однако, ассиметрия **времи быстрого сна** имеет достаточно большое значение:

```{r}
desc0 <- df |>dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> describe() |>dplyr::select(-trimmed, -mad, -se)
print_df(desc0)
```

## 4. Логарифмирование хвостатых

```{r}
df.log <- df
df.log <- df.log |> mutate(BODY_WEI = log(BODY_WEI), BRAIN_WE = log(BRAIN_WE), PARADOX = log(PARADOX), LIFESPAN = log(LIFESPAN), GESTTIME = log(GESTTIME))
df.log <- df.log |> mutate(PARADOX = ifelse(is.infinite(PARADOX), NA, PARADOX))
df.log |> dplyr::select(-NAME) |> filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME)) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)
```

Выведем также немного другой матричный график, в котором удаление NA будет попарным.

```{r, warning=FALSE}
df.log |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)
```

Видим, что распределения стали более симметричными, причём почти все признаки имеют отрицательный эксцесс, то есть они более "плоские", чем нормальное:

```{r}
desc1 <- df.log |>dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> describe() |>dplyr::select(-trimmed, -mad, -se)
print_df(desc1)
```

По графику неравномерностей не видно. Если раскрасить по категориальным признакам, то тоже не получается выделить раздельные *облака*.

## 5. Выбросы

Видим пару выбросов, для которых вес мозга мал, но продолжительность жизни достаточно велика:

```{r}
df.log |> filter(LIFESPAN > 2 & BRAIN_WE < 0) |> print_df()
```

Это две **летучие мыши**.

Построим теперь графики разброса без выбросов.

```{r}
df.log.out <- df.log |>  filter(!(LIFESPAN > 2 & BRAIN_WE < 0))
df.log.out |> dplyr::select(-NAME) |> filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME)) |> scatterPlotMatrix(regressionType = 1,
                        corrPlotType = "Text",
                        slidersPosition = list(
                          dimCount = 7,
                          xStartingDimIndex = 1,
                          yStartingDimIndex = 1
                        ),
                        categorical = categories,
                        plotProperties = list(noCatColor = "Indigo"),
                        controlWidgets = TRUE,
                        height = 1050, width = 1000)
```

И сравним корреляции.

```{r, warning=FALSE}
df.log |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)
df.log.out |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)
```

В основном они **выросли**, по крайней мере, там, где мы исключали выбросы.

## 6. Зависимости от индексов опасности

Необходимо описать разницу между животными по индексу опасности места, где они спят. Посмотрим на количество животных в каждой группе:

```{r}
df.log.out |>dplyr::select(EXP_IND) |> summary()
```

Выборки для индексов $2$ и $5$ можем считать сбалансированными.

Визуально оценим распределения с помощью ящиков с усами:

```{r}
df.log.out |> ggplot(aes(x = EXP_IND, y = BODY_WEI)) +
  geom_boxplot()
```

```{r}
df.log.out |> ggplot(aes(x = EXP_IND, y = BRAIN_WE)) +
  geom_boxplot()
```

```{r warning=FALSE}
df.log.out |> ggplot(aes(x = EXP_IND, y = PARADOX)) +
  geom_boxplot()
```

```{r warning=FALSE}
df.log.out |> ggplot(aes(x = EXP_IND, y = SLOWWAVE)) +
  geom_boxplot()
```

```{r}
df.log.out |> ggplot(aes(x = EXP_IND, y = SLEEP)) +
  geom_boxplot()
```

```{r warning=FALSE}
df.log.out |> ggplot(aes(x = EXP_IND, y = LIFESPAN)) +
  geom_boxplot()
```

```{r warning=FALSE}
df.log.out |> ggplot(aes(x = EXP_IND, y = GESTTIME)) +
  geom_boxplot()
```

В основном видна монотонная зависимость, однако, предстоит проверить это с помощью критериев.

## 7. Нормальность, вид распределения

Из-за малости выборок в третьей и четвёртой группах исключим их из исследования.

```{r}
get_df_on_ind <- function(i) {
  return(df.log.out |> filter(EXP_IND == i))
}
```

Посмотрим сначала на гистограммы распределений по группам для каждого признака.

```{r}
for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  hist(get_df_on_ind(i)$BODY_WEI, main = "")
  hist(get_df_on_ind(i)$BRAIN_WE, main = "")
  hist(get_df_on_ind(i)$SLOWWAVE, main = "")
  hist(get_df_on_ind(i)$PARADOX, main = "")
  hist(get_df_on_ind(i)$SLEEP, main = "")
  hist(get_df_on_ind(i)$LIFESPAN, main = "")
  hist(get_df_on_ind(i)$GESTTIME, main = "")
}
```

Посмотрим на нормальность с помощью Normal Probability Plot:

```{r}
for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  plot_qq_graph(get_df_on_ind(i)$BODY_WEI, "BODY_WEI")
  plot_qq_graph(get_df_on_ind(i)$BRAIN_WE, "BRAIN_WE")
  plot_qq_graph(get_df_on_ind(i)$SLOWWAVE, "SLOWWAVE")
  plot_qq_graph(get_df_on_ind(i)$PARADOX, "PARADOX")
  plot_qq_graph(get_df_on_ind(i)$SLEEP, "SLEEP")
  plot_qq_graph(get_df_on_ind(i)$LIFESPAN, "LIFESPAN")
  plot_qq_graph(get_df_on_ind(i)$GESTTIME, "GESTTIME")
}
```

И с помощью PP-plot:

```{r}
for (i in c(1, 2, 5)) {
  print(paste("Группа ", i))
  par(mfrow = c(2, 4))
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(BODY_WEI)))$BODY_WEI, "BODY_WEI")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(BRAIN_WE)))$BRAIN_WE, "BRAIN_WE")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(SLOWWAVE)))$SLOWWAVE, "SLOWWAVE")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(PARADOX)))$PARADOX, "PARADOX")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(SLEEP)))$SLEEP, "SLEEP")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(LIFESPAN)))$LIFESPAN, "LIFESPAN")
  plot_pp_plot((get_df_on_ind(i) |> filter(!is.na(GESTTIME)))$GESTTIME, "GESTTIME")
}
```

А теперь оценим по тесту Шапиро-Уилка:

```{r}
df.shapiro.test.p.value <- data.frame(ind = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)) {
  df.shapiro.test.p.value[df.shapiro.test.p.value$ind == i, ] <- c(i, shapiro.test(get_df_on_ind(i)$BODY_WEI)$p.value, 
  shapiro.test(get_df_on_ind(i)$BRAIN_WE)$p.value,
  shapiro.test(get_df_on_ind(i)$SLOWWAVE)$p.value,
  shapiro.test(get_df_on_ind(i)$PARADOX)$p.value,
  shapiro.test(get_df_on_ind(i)$SLEEP)$p.value,
  shapiro.test(get_df_on_ind(i)$LIFESPAN)$p.value,
  shapiro.test(get_df_on_ind(i)$GESTTIME)$p.value)
}

df.shapiro.test.p.value |> print_df()
```

И наконец по Лиллиефорсу:

```{r}
df.lillie.test.p.value <- data.frame(ind = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)) {
  df.lillie.test.p.value[df.lillie.test.p.value$ind == i, ] <- c(i, lillie.test(get_df_on_ind(i)$BODY_WEI)$p.value, 
  lillie.test(get_df_on_ind(i)$BRAIN_WE)$p.value,
  lillie.test(get_df_on_ind(i)$SLOWWAVE)$p.value,
  lillie.test(get_df_on_ind(i)$PARADOX)$p.value,
  lillie.test(get_df_on_ind(i)$SLEEP)$p.value,
  lillie.test(get_df_on_ind(i)$LIFESPAN)$p.value,
  lillie.test(get_df_on_ind(i)$GESTTIME)$p.value)
}

df.lillie.test.p.value |> print_df()
```

Этот критерий является менее мощным, однако даёт схожие результаты.

По итогу можно считать, что распределения всех признаков во всех группах похожи на нормальные, кроме **веса тела** и **веса мозга** во второй группе и **времени медленного сна**, **времени сна** и **времени беременности** в пятой группе. 

## 8. t-тесты

Сначала посмотрим на дисперсию, чтобы применить t-test для распределений с равными дисперсиями. Тест Фишера проверяет равенство дисперсий для нормально распределённых данных, которые мы определелили в прошлом пункте:

```{r}
df.fisher.var <- data.frame(IND1 = rep(0, 3), IND2 = rep(0, 3), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

k <- 1

for (i in c(1, 2, 5)){
  for (j in c(1, 2, 5)){
    if (i < j){
      df.fisher.var[k, ] <- c(i, j,
                                  var.test(get_df_on_ind(i)$BODY_WEI, get_df_on_ind(j)$BODY_WEI)$p.value,
                                  var.test(get_df_on_ind(i)$BRAIN_WE, get_df_on_ind(j)$BRAIN_WE)$p.value,
                                  var.test(get_df_on_ind(i)$SLOWWAVE, get_df_on_ind(j)$SLOWWAVE)$p.value,
                                  var.test(get_df_on_ind(i)$PARADOX, get_df_on_ind(j)$PARADOX)$p.value,
                                  var.test(get_df_on_ind(i)$SLEEP, get_df_on_ind(j)$SLEEP)$p.value,
                                  var.test(get_df_on_ind(i)$LIFESPAN, get_df_on_ind(j)$LIFESPAN)$p.value,
                                  var.test(get_df_on_ind(i)$GESTTIME, get_df_on_ind(j)$GESTTIME)$p.value)
      k <- k + 1
    }
  }
}

df.fisher.var |> print_df()
```

Гипотеза о равенстве не отвергается для **веса тела** и **веса мозга** между первой и пятой группы, для **времени медленного сна**, **времени сна** и **времени беременности** между первой и второй группы, **времени быстрого сна** между всеми группами и **продолжительности жизни** между первой и второй группой.

Проведём t-тесты для первой, второй и пятой группы по всем признакам:

```{r}
df.t.test.p.value <- data.frame(IND1 = rep(0, 3), IND2 = rep(0, 3), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

k <- 1
flag <- FALSE
flagBB <- FALSE
flagSSG <-FALSE
flagL <- FALSE

for (i in c(1, 2, 5)){
  for (j in c(1, 2, 5)){
    if (i < j){
        flag <- i == 2 & j == 5
        flagBB <- i == 1 & j == 5
        flagSSG <- i == 1 & j == 2
        flagL <- i == 1 & j == 2
      
      df.t.test.p.value[k, ] <- c(i, j,
                                  t.test(get_df_on_ind(i)$BODY_WEI, get_df_on_ind(j)$BODY_WEI, var.equal = flag | flagBB)$p.value,
                                  t.test(get_df_on_ind(i)$BRAIN_WE, get_df_on_ind(j)$BRAIN_WE, var.equal = flag | flagBB)$p.value,
                                  t.test(get_df_on_ind(i)$SLOWWAVE, get_df_on_ind(j)$SLOWWAVE, var.equal = flag | flagSSG)$p.value,
                                  t.test(get_df_on_ind(i)$PARADOX, get_df_on_ind(j)$PARADOX, var.equal = TRUE)$p.value,
                                  t.test(get_df_on_ind(i)$SLEEP, get_df_on_ind(j)$SLEEP, var.equal = flag | flagSSG)$p.value,
                                  t.test(get_df_on_ind(i)$LIFESPAN, get_df_on_ind(j)$LIFESPAN, var.equal = flag | flagL)$p.value,
                                  t.test(get_df_on_ind(i)$GESTTIME, get_df_on_ind(j)$GESTTIME, var.equal = flag | flagSSG)$p.value)
      k <- k + 1
    }
  }
}

df.t.test.p.value |> print_df()
```

Гипотеза о равенстве распределений по всем признакам между первой и второй не отвергается, а между первой и пятой и второй и пятой отвергается. Однако для признаков, которые мы посчитали ненормальными (**вес тела** и **вес мозга** во второй группе и **время медленного сна**, **время сна** и **время беременности** в пятой группе) p-value нельзя считать верным, так как размеры выборок малы и эти признаки не имеют нормального распределения.

## 9. Тест Манна-Уитни

Для проверки равенства распределений для ненормально распределённых признаков можем применить критерий Манна-Уитни, однако прежде посмотрим на симметричност по группам:

```{r}
df.skew <- data.frame(IND = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)){
  df.skew[df.skew$IND == i, ] <- c(i, skewness(get_df_on_ind(i)$BODY_WEI, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$BRAIN_WE, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$SLOWWAVE, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$PARADOX, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$SLEEP, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$LIFESPAN, na.rm = TRUE),
                                      skewness(get_df_on_ind(i)$GESTTIME, na.rm = TRUE))
}

df.skew |> print_df()
```

Видим, что асимметрия **веса тела** и **веса мозга** у второй группы (ненормально распределённые признаки) сильно (примерно на порядок) отличается от первой и пятой группы. Аналогично: асимметрия **времени сна** и **времени беременности** пятой группы сильно отличается от первой и пятой. Для асимметрии **времени быстрого сна** у пятой группы и первой также нет оснований говорить о приблизительном равенстве, однако между пятой и второй группой разница мала, меньше $0.5$, что может говорить об удовлетворении условий для критерия, однако надо ещё посмотреть на исправленную выборочную дисперсию:

```{r}
df.var <- data.frame(IND = c(1, 2, 5), BODY_WEI_P = rep(0, 3), BRAIN_WE_P = rep(0, 3), SLOWWAVE_P = rep(0, 3), PARADOX_P = rep(0, 3), SLEEP_P = rep(0, 3), LIFESPAN_P = rep(0, 3), GESTTIME_P = rep(0, 3))

for (i in c(1, 2, 5)){
  df.var[df.var$IND == i, ] <- c(i, var(get_df_on_ind(i)$BODY_WEI, na.rm = TRUE),
                                    var(get_df_on_ind(i)$BRAIN_WE, na.rm = TRUE),
                                    var(get_df_on_ind(i)$SLOWWAVE, na.rm = TRUE),
                                    var(get_df_on_ind(i)$PARADOX, na.rm = TRUE),
                                    var(get_df_on_ind(i)$SLEEP, na.rm = TRUE),
                                    var(get_df_on_ind(i)$LIFESPAN, na.rm = TRUE),
                                    var(get_df_on_ind(i)$GESTTIME, na.rm = TRUE))
}

df.var |> print_df()
```

Видим, что дисперсии **времени медленного сна** для пятой и второй группы даже приблизительно не равны, поэтому ни один из признаков, которые мы хотели проверить не подходят для применения критерия Манна-Уитни. То есть для них мы ничего не можем сказать о равенстве распределений.

## 10. Коэффициент Пирсона

```{r}
pairwise.cor <- function(data, name_method = "pearson"){
  m <- cor(data)
  m.p.value <- cor(data)
  
  for (i in colnames(data)){
    for (j in colnames(data)){
      data.out <- data|> filter(!is.na(data[[i]]) & !is.na(data[[j]]))
      m[i, j] <- cor(x = data.out[[i]], y = data.out[[j]], method = name_method)
      m.p.value[i, j] <- cor.test(x = as.vector(data.out[[i]]), y = as.vector(data.out[[j]]), method = name_method)$p.value
    }
  }
  
  corrplot(m, method = "number")
  as.data.frame(m.p.value)
}
```

Перед вычислением коэффициента корреляции Пирсона посмотрим на нормальность признаков для всех индивидов по тесту Шапиро-Уилка:

```{r}
df.shapiro.test.all.p.value <- data.frame(BODY_WEI_P = 0, BRAIN_WE_P = 0, SLOWWAVE_P = 0, PARADOX_P = 0, SLEEP_P = 0, LIFESPAN_P = 0, GESTTIME_P = 0)

for (i in c(1)) {
  df.shapiro.test.all.p.value[1, ] <- c(shapiro.test(df.log.out$BODY_WEI)$p.value, 
  shapiro.test(df.log.out$BRAIN_WE)$p.value,
  shapiro.test(df.log.out$SLOWWAVE)$p.value,
  shapiro.test(df.log.out$PARADOX)$p.value,
  shapiro.test(df.log.out$SLEEP)$p.value,
  shapiro.test(df.log.out$LIFESPAN)$p.value,
  shapiro.test(df.log.out$GESTTIME)$p.value)
}

df.shapiro.test.all.p.value |> print_df()
```

Как видим по p-value можем считать, что распределения похожи на нормальные, поэтому критерий проверки на значимость коэффициента корреляции будет проверять ещё и независимость признаков, а также коэффициент Спирмена будет примерно равен коэффициенту Пирсона.

Теперь посчитаем коэффициенты корреляции Пирсона для всех пар признаков, причём удаление NA будем производить попарно, чтобы для каждой пары получить максимальное количество индивидов:

```{r}
df.log.out |> 
  mutate(BRAIN_BODY = log(exp(BRAIN_WE) / exp(BODY_WEI))) |>
  dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor() |> 
  print_df()
```

Видим, что для всех пар признаков критерий даёт p-value меньше $\alpha = 0.05$, то есть отвергаем гипотезу о незначимости зависимсоти для этих признаков.

Зависимости:

1. **Вес мозга** зависит от **веса тела**;

2. **Общая продолжительность сна** зависит от **медленного** и **быстрого сна**, а также они зависят друг от друга, но скорее косвенно, так как это соотношение скорее индивидуально для каждого животного;

3. **Время беременности** зависит от **продолжительности жизни**, так как беременность не должна занимать большей части жизни из-за уязвимости такого животного;

4. Чем больше животное, тем дольше **беременность** и **продолжительность жизни**, так как крупное животное требует как большого формирования во время беременности, так как и большего времени взросления;

5. Также от размера **мозга** зависит **продолжительность жизни**, однако эта зависимость не является прямой, так как если мы рассмотрим долю **веса мозга** к **весу тела**, то корреляция значительно упадёт;

6. Зависимости между **сном** и **весом тела**, **сном** и **продолжительностью жизни** или **сном** и **времени беременности** достаточно сложно объяснить, для этого нужно углублятся в сложные биологичесике процессы.

## 11. Коэффициент Спирмена

Проверим, что ранговый коэффициент корреляции Спирмена примерно равен Пирсону:

```{r warning=FALSE}
df.log.out |> 
 dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor(name_method = "spearman") |> 
  print_df()
```

Результаты схожи и это не удивительно, ведь мы считаем, что данные похожи на нормальные, а для них отличие коэффициента Пирсона от Спирмена незначительно.

## 12. Частные корреляционные отношения

Однако возникает подозрение, что многие зависимости имеют другую причину, нежели зависимость только друг от друга. Как было видно по ящикам с усами для **индекса опасности места для сна** есть монотонная зависимость почти всех признаков от этого индекса. Поэтому возникает идея проверки коэффициента частной корреляции с вычетом влияния этого индекса.

```{r}
df.log.out |> 
  group_by(EXP_IND) |> 
  mutate(BODY_WEI = BODY_WEI - mean(BODY_WEI, na.rm = TRUE), BRAIN_WE = BRAIN_WE - mean(BRAIN_WE, na.rm = TRUE), SLOWWAVE = SLOWWAVE - mean(SLOWWAVE, na.rm = TRUE), PARADOX = PARADOX - mean(PARADOX, na.rm = TRUE), SLEEP = SLEEP - mean(SLEEP, na.rm = TRUE), LIFESPAN = LIFESPAN - mean(LIFESPAN, na.rm = TRUE), GESTTIME = GESTTIME - mean(GESTTIME, na.rm = TRUE)) |>
  group_by(.drop = TRUE) |> dplyr::select(-NAME, -EXP_IND, -PRED_IND, -DANG_IND) |> 
  pairwise.cor() |> 
  print_df()
```

Здесь мы видим, что достаточно много зависимостей перестали быть значимыми ($\alpha = 0.05$), так как мы исключили влияние **индекса опасности места для сна**. Ожидаемо зависимости всех видов **сна** от **веса тела**, **веса мозга** и **продолжительности сна** значительно ослабли, однако зависимости сна от **времени беременности** уменьшились мало.

## 13. Множественная регрессия

Посмотрим на данные:

```{r warning=FALSE}
df.log.out |> dplyr::select(-NAME) |> ggpairs(columns = 1:7)
```

Всё, что нужно, было прологарифмировано раньше, поэтому приступим к регрессии. Хотим прогнозировать время жизни по остальным данным.

Строим регрессию по всем признакам:

```{r}
df.log.out.na <- df.log.out |> dplyr::filter(!is.na(SLOWWAVE) & !is.na(PARADOX) & !is.na(SLEEP) & !is.na(LIFESPAN) & !is.na(GESTTIME))
model <- lm(LIFESPAN ~ ., df.log.out.na |> dplyr::select(-NAME))
model.beta <- lm.beta(model)
summary(model.beta)
```

Регрессия значима, но значимых коэффициентов на уровне $\alpha = 0.05$ только два: для **веса мозга** и для фиктивной переменной **индекса хищничества** при значении $3$.

## 14. Доверительные эллипсы

Посчитаем ковариационную и корреляционную матрицу для коэффициентов регрессии:

```{r}
dummy.variable <- data.frame(NAME = df.log.out.na$NAME)

for (i in 2:5){
  dummy.variable[[paste("PRED_IND", i, sep = "_")]] = ifelse(df.log.out.na$PRED_IND == i, 1, 0)
}
for (i in 2:5){
  dummy.variable[[paste("EXP_IND", i, sep = "_")]] = ifelse(df.log.out.na$EXP_IND == i, 1, 0)
}
for (i in 2:5){
  dummy.variable[[paste("DANG_IND", i, sep = "_")]] = ifelse(df.log.out.na$DANG_IND == i, 1, 0)
}

n.df <- length(df.log.out.na$NAME)
sigma.df <- sum(model$residuals ** 2) / (n.df - model$rank)
covMatrix.df <- df.log.out.na |> dplyr::select(-NAME, -PRED_IND, -EXP_IND, -DANG_IND) |> cbind(dummy.variable |> dplyr::select(-NAME)) |> cov()
cov_b.df <- sigma.df / n.df * solve(covMatrix.df)
cov_beta.df <- sigma.df / n.df * solve(cov2cor(covMatrix.df))
cor_b.df <- cov2cor(cov_b.df)
corrplot(cor_b.df, method = "color")
```

Видим сильную корреляцию между между оценками коэффициентов регрессии между **весом тела** и **мозга**, между всеми видами **сна**, между **индексами общей опасности** и **хищничества**, а также между **весом мозга** и **продолжительностью жизни**.

Посмотрим на доверительный эллипсоид для значимых коэффициентов, обозначенных выше:

```{r}
plot(ellipse::ellipse(cov_beta.df[c(2, 9), c(2, 9)], centre = model.beta$standardized.coefficients[c(3, 9)], level=0.95, npoints = 100), type = "l", asp = 1)
lines(x = c(-2, 2), y = c(2, -2), col = "red")
```

Он имеет плохой вид: либо оба имеет сильное влияние, либо оба --- слабое. Причём **индекс хищничества** может быть совсем не значим, так как эллипс пересекает нулевое значение по $y$.

## 15. Сильно коррелирующие признаки

Построим таблицу VIF:

```{r}
ols_vif_tol(model)
```

Наблюдаем очень большую мультиколлинеарность почти по всем признакам.

Теперь таблица с частичными корреляциями:

```{r}
ols_correlations(model)
```

Сильное влияние на зависимую переменную за исключением остальных оказывают, в перую очередь, **вес мозга**, а также **индекс хищничества** и **общий индекс опасности** (хотя он сильно зависит от **индекса хищничества**).

Попробуем убрать сильно коррелирующие. Уберём **вес тела**, **общее время сна** и **общий индекс опасности**:

```{r}
model.minuscor <- lm(LIFESPAN ~ ., df.log.out.na |> dplyr::select(-NAME, -BODY_WEI, - SLEEP, -DANG_IND))
model.minuscor.beta <- lm.beta(model.minuscor)
summary(model.minuscor.beta)
```
По значимости имеем ту же ситуацию, однако значимость по p-value подросла, а $R^2$ почти не изменился.

Мультиколлинеарность исчезла:

```{r}
ols_vif_tol(model.minuscor)
```

## 16. Пошаговая регрессия

### Backward

Построим пошаговую регрессию. Сначала рассмотрим убавление количества параметров:

```{r}
st.bw.lm <- ols_step_backward_p(model.minuscor)
st.bw.lm
```

Как это выглядит по шагам:

```{r}
plot(st.bw.lm)
```

Какая же модель получается в итоге:

```{r}
summary(st.bw.lm$model)
```

Осталось $2$ признака, удалились **время беременности**, **быстрый сон**, **медленный сон** и **индекс воздействия сна**. 

### Forward

Теперь будем добавлять признаки:

```{r}
st.fw.lm <- ols_step_forward_p(model.minuscor)
st.fw.lm
```

Как это выглядело на графике:

```{r}
plot(st.fw.lm)
```

Какую же модель получили:

```{r}
summary(st.fw.lm$model)
```

Она аналогична той, которую получили от backward.

Однако только при одном значении **индекса хищничества** коэффициент значимый, поэтому вручную создадим фиктивные переменные и проведём опять автоматический отбор:

```{r}
df.log.out.dummy <- df.log.out.na
for (i in 2:5){
  df.log.out.dummy[[paste("PRED_IND", i, sep = "_")]] <- ifelse(df.log.out.dummy$PRED_IND == i, 1, 0)
}
model.out.dummy <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3 + PRED_IND_4 + PRED_IND_5, data = df.log.out.dummy)
st.bw.lm.dummy <- ols_step_backward_p(model.out.dummy)
plot(st.bw.lm.dummy)
summary(st.bw.lm.dummy$model)
```

Осталось два значения **индекса хищничества**.

## 17. Остатки и Predicted vs Residuals

Нашли лучшую модель регрессии. Добавим те наблюдения, которые имели пропущенные значения только на убранных данных:

```{r}
df.log.na.best <- df.log |> filter(!is.na(LIFESPAN))
for (i in 2:5){
  df.log.na.best[[paste("PRED_IND", i, sep = "_")]] <- ifelse(df.log.na.best$PRED_IND == i, 1, 0)
}
model.best <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best)
model.beta.best <- lm.beta(model.best)
summary(model.beta.best)
```

Ясно, что согласованность модели упала, так как мы построили её на большем наборе данных (плюс были добавлены выбросы, удаленные раньше).

Теперь посмотрим на нормальность остатков (хотим точность проверяемых критериев):

```{r}
plot(model.best, which=2)
```

Видим, что справа нормальности не наблюдается, хотя на основном массиве данных нормальность присутствует.

Теперь посмотрим на график Predicted vs Residuals:

```{r}
plot(model.best,which=1)
```

Видим достаточно равномерное распределение в прямоугольной области около нуля. То есть можно предположить адекватность выбранной линейной модели, а также гомогедостичность (то есть равенство дисперсий остатков).

График Residuls vs Deleted Residuals:

```{r}
del_res <- sapply(1:58, function(n) df.log.na.best$LIFESPAN[n] - predict(lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best[-n, ]), df.log.na.best[n, ]))
plot(x = model.best$residuals, y = del_res, xlab = "Rsiduals", ylab = "Deleted residuals")
lines(x = c(-3, 3), y = c(-3, 3))
abline(lm(del_res ~ model.best$residuals), col = "blue")
text(x = model.best$residuals, y = del_res, labels = rownames(df.log.na.best), cex = 0.6, pos = 4, col = "red")
```

Как и ожидалось, точки расположились под чуть большим наклоном, нежели $y = x$. Больших отклонений (по линии регресии на этих точках) не видно, то есть сказать что-то о выбросах нельзя.

## 18. Выбросы по Махаланобису

```{r}
df.log.na.best.x <- df.log.na.best |> dplyr::select(BRAIN_WE, PRED_IND_2, PRED_IND_3)

cov_matrix <- cov(df.log.na.best.x)

mahalanobis_distance <- mahalanobis(df.log.na.best.x, center = colMeans(df.log.na.best.x), cov = cov_matrix)

plot(mahalanobis_distance, 
     main = "Mahalanobis Distance Plot",
     xlab = "Observation",
     ylab = "Mahalanobis Distance",
     type = "h", 
     col = "darkblue") 
plot(sort(mahalanobis_distance), 
     main = "Mahalanobis Distance Plot",
     xlab = "Observation",
     ylab = "Mahalanobis Distance",
     type = "h", 
     col = "darkblue") 
```

По Махаланобису виден скачок для двух наблюдений: $1$ и $4$. Это два слона:

```{r}
df.log.na.best[c(1, 4), ] |> print_df()
```

## 19. Выбросы по Куку

```{r}
cooks_distance <- cooks.distance(model.best)

plot(cooks_distance, 
     col = "darkblue",
     type = "h", 
     main = "Cook's Distance",
     xlab = "Observation",
     ylab = "Cook's Distance")
plot(sort(cooks_distance), 
     col = "darkblue",
     type = "h", 
     main = "Cook's Distance",
     xlab = "Observation",
     ylab = "Cook's Distance")
```

По скачку значения расстояния Кука можно выделить три наблюдения: 6, 14 и 31. Это те самые летучие мыши и ещё ехидна:

```{r}
df.log.na.best[c(6, 14, 31), ] |> print_df()
```

## 20. Studentized Residuals vs Leverage Plot

Наконец посмотрим на соотношение рычага и остатков:

```{r}
ols_plot_resid_lev(model.best)
```

Здесь явных выбросов нет: по остаткам, за пределами доверительного интервала небольшое количество наблюдений, по рычагу два кандидата на выбросы --- слоны, а наблюдений, которые бы были и по рычагу и по остаткам "выбросами", нет.

## 21. Исключаем выбросы

Найденные выбросы имеют определённый смысл --- большие и средне атакуемые слоны, маленькие, но долгоживущие летучие мыши и такая же ехидна. Слонов исключать не будем, так как они просто большие, поэтому Махаланобис их выделяет, однако они хорошо согласуются с моделью (видно по картинке, например). Исключим выбросы:

```{r}
model.best.out <- lm(LIFESPAN ~ BRAIN_WE + PRED_IND_2 + PRED_IND_3, data = df.log.na.best[c(-6, -14, -31),])
model.best.out.beta <- lm.beta(model.best.out)
summary(model.best.out.beta)
```

Судя по $R^2$ и его исправленному варианту, а также по p-value значимости регрессии, получили более хорошую модель.

## 22. Предсказания

Предскажем **время жизни**обыкновенного ежа. **Вес его мозга** --- $3.3$ г, имеет защиту от хищников, но крупные хищные птицы успешно их атакуют, поэтому **индекс хищничества** --- примерно $3$. В неволе ежи живут $4$-$6$ лет. Пусть будет $5$:

```{r}
data.hedgehog <- data.frame(NAME = "European hedgehog", BRAIN_WE = log(3.3), LIFESPAN = log(5), PRED_IND_2 = 0, PRED_IND_3 = 1)
data.hedgehog |> print_df()
```

Предскажем его продолжительность жизни:

```{r}
pred.hedgehog.pred <- predict(model.best.out, newdata = data.hedgehog, interval = "predict")
pred.hedgehog.conf <- predict(model.best.out, newdata = data.hedgehog, interval = "confidence")
```

```{r}
exp(pred.hedgehog.pred[, 1])
```

Получили цифры близкие к действительности. Посмотрим на предсказательный интервал:

```{r}
print("Нижняя граница:")
exp(pred.hedgehog.pred[, 2])
print("Верхняя граница:")
exp(pred.hedgehog.pred[, 3])
```

Ежи в неволе могут жить до 10 лет.

А теперь на доверительный:

```{r}
print("Нижняя граница:")
exp(pred.hedgehog.conf[, 2])
print("Верхняя граница:")
exp(pred.hedgehog.conf[, 3])
```
